Momentum Gradient Descent
# Tag:
- Source/KU_ML2
Momentum Gradient Descent
gradient만 빼주어 update하는게 아니라, 이전에 갔던 방향의 graident를 같이 빼주어 이전에 갔던 방향으로의 관성을 추가해주는 Gradient Descent.
이전의 갔던 방향으로의 관성이 추가되므로, 기존의 방식보다 local mininum으로 더 빠르게 도착할 확률이 늘어난다. 또한, local minumun에 갇히지 않을 확률도 늘어나게 된다.
이전 방향의 gradient와, 현재 방향의 gradient의 weighted sum이라 할 수 있다.
일종의 moving average로, 에 따른 전체에 대해서 보면 weighted sum이다.
Nesterov's Accelerated Momentum(NAV)
이전의 gradient 방향으로 일단 이동한 후, 그 지점에서 다시 gradient를 구해 이전에 갔던 방향의 gradient와 같이 빼주는 방법.
